#Jeff Dean
Transformer如何將 AI 計算效率提升 100 倍?|DeepMind 首席科學家最新演講
11月25日,Google DeepMind首席科學家 Jeff Dean在史丹佛 AI 俱樂部發表演講。本次演講 Jeff Dean全面復盤了過去 15 年 AI 技術的關鍵轉折點,探討了算力硬體與模型架構的協同進化、計算範式從 CPU 向TPU的必然轉移、大規模深度學習系統的工程哲學、Transformer 架構的效率革命、自監督學習與多模態模型的崛起,以及 AI 在數學推理與科學研究中的前沿應用。Jeff Dean 指出,機器學習在過去十年徹底重塑了計算能力的邊界。這種變革並非單點突破,而是“規模”與“演算法”的乘數效應。他詳細拆解了 Google Brain 早期的工程決策,指出為了突破算力瓶頸,團隊採用了在數學上看似“完全不成立”的非同步訓練方法,這種工程實踐最終被證明是實現大規模神經網路訓練的關鍵。他還特別強調了硬體演進的底層邏輯:Google 研發 TPU 並非為了追求單純的算力堆疊,而是被“1億使用者每天使用3分鐘語音識別”這一實際算力缺口倒逼出的架構創新,他強調,硬體的演變不僅僅是速度的提升,更是為了適應低精度線性代數運算的本質需求。在模型架構層面,Jeff Dean 深入剖析了從 LSTM 到 Transformer 的範式跨越,並提出了當前前沿模型的一個關鍵共識:現代大模型(如 Gemini)本質上應是“稀疏”的。他指出,處理單一任務時啟動整個網路是巨大的資源浪費,通過稀疏架構僅啟動 1%-5% 的參數,可以在算力成本不變的前提下實現性能的指數級躍升。此外,他還探討了自監督學習如何利用海量文字資料進行“填空訓練”,以及在後訓練階段如何通過強化學習和蒸餾技術進一步提升模型的安全性和推理能力。01. 計算範式的重構:從通用 CPU 到機器學習專用算力的演進Jeff Dean:今天我想和大家探討AI 領域的重要趨勢,主要是回顧過去 15 年左右的發展,以及這些進展是如何緊密結合,從而建構出我們今天所擁有的現代高能力模型的。這展示了 Google 許多人的工作成果,其中一些也源自其他地方,我有時只是一個信使,有時是合作者,也是其中部分技術的開發者。首先有幾個觀察。我認為在過去十年左右,機器學習已經完全改變了我們對電腦能力的預期。十年前,你無法獲得非常自然的語音識別體驗,也無法與電腦流暢對話。它們在圖像識別或理解視覺內容方面表現不佳,也並不真正理解語言。發生的變化是,我們發現了一種特定的基於深度學習的方法範式,也就是神經網路。隨著我們擴大規模,增加算力確實帶來了極好的結果。在這個過程中,我們開發了真正新穎且有趣的演算法和模型架構,這些改進也帶來了巨大的提升。這些因素通常能很好地結合,因此更大的規模配合更好的演算法,往往能發揮出更優異的效果。另一件在整個計算行業產生重大影響的事情是,我們想要運行的計算類型以及運行這些計算的硬體已經發生了巨大變化。十五年前,你主要關心 CPU 有多快,也許關心它有多少個核心,能否快速運行 Microsoft Word 和 Chrome 或傳統的手工編寫程序。而現在你關心的是:它能在各種不同的約束條件下運行有趣的機器學習計算嗎?02. 你需要一百萬倍的算力才能製作出真正好的神經網路讓我們快速回顧一下機器學習 15 年來的進步。神經網路被證明是一個相對古老的想法。這種在邊緣具有權重並可以學習識別特定模式的人工神經元概念,實際上非常重要。與之相結合,反向傳播作為一種學習邊緣權重的方法被證明是關鍵所在,因為這樣你就可以根據擁有的一些錯誤訊號,對整個網路進行端到端學習。這是我在 1990 年,也就是大四那年第一次瞭解神經網路時的情況。我當時非常興奮,心想:“這是一個如此偉大的抽象概念,這將非常棒。我們可以建構真正偉大的模式識別系統並解決各種問題。”我當時激動地說:“我要寫一篇關於神經網路平行訓練的畢業論文。”我最終做的是嘗試使用系裡的 32 處理器機器而不是單台機器,我想我們將能夠建構真正令人印象深刻的神經網路。我基本上在這台時髦的基於超立方體架構的機器上實現了現在所說的神經網路資料平行和模型平行訓練,然後觀察加入更多處理器時它是如何擴展的。結果證明我完全錯了。你需要一百萬倍的算力才能製作出真正好的神經網路,而不是僅僅 32 倍。這是一個有趣的練習,但結果表明當時的算力規模遠不足以支撐這一概念。2012 年,我在 Google 的茶水間碰到了 Andrew Ng。我問他:“嗨 Andrew,你在這裡做什麼?”他說:“我開始每周在 Google 花一天時間。我還沒完全搞清楚要做什麼,但我在 Stanford 的學生開始在各種語音問題上用神經網路取得不錯的結果。”我說:“那很酷,我們應該訓練真正大規模的神經網路。”這就是 Google Brain 項目的起源:我們如何利用海量計算來擴展神經網路的大規模訓練?那時我們的資料中心實際上沒有加速器,只有大量擁有許多核心的 CPU。我們最終建構了名為 DistBelief 的軟體抽象,這最終支援了模型平行以及資料平行。03. 非同步訓練悖論:“這在數學上完全不成立,但結果證明它有效”事實上,我們對模型的多個副本進行了這種時髦的非同步訓練。在用一批資料進行每一步訓練之前,其中一個副本會下載當前的參數集,它會全力處理這批資料的訓練並計算梯度更新,即 ΔW,並將其傳送給參數伺服器,然後參數伺服器會將 ΔW 累加到當前的參數狀態中。這在數學上完全不成立,因為與此同時,所有其他模型副本也在計算梯度並將它們非同步地加入到這組共享的參數狀態中。這讓很多人感到緊張,因為它實際上不符合理論上的做法,但結果證明它有效。我們建構了系統,讓模型的 200 個副本都非同步地運轉並更新參數,效果相當不錯。我們還有模型平行,可以將非常大的模型劃分到許多電腦上。這個系統使我們在 2012 年能夠訓練比以前任何人訓練過的規模都要大 50 到 100 倍的神經網路。它們現在看起來真的很小,但在那時我們非常興奮。04. 無監督學習的湧現:“它從未被教過貓是什麼,卻自己總結出了貓的概念”我們使用這個系統做的第一件事就是後來聞名的“貓論文”,我們從隨機的 YouTube 視訊中提取了 1000 萬個隨機幀,並僅僅使用一個無監督目標函數來學習一種表示,然後用它來重建每一幀的原始像素。學習目標有點像是試圖最小化給定輸入幀的重建誤差。你不需要任何標籤,事實上,系統從未看到過無監督部分的任何標記資料。我們發現,在這個模型的頂層,最終會得到對圖像是否包含不同種類的高級概念敏感的神經元。即使它從未被教過貓是什麼,也有一個神經元,你能給它的最強刺激就是像貓臉一樣的東西。它只是通過接觸這些資料就自己總結出了貓的概念。還有針對人臉、行人背部或類似事物的其他神經元。也許更重要的是,我們在較為冷門的 ImageNet 22,000 類別基準測試上獲得了現有技術的巨大提升。大多數人競爭的是 1,000 類別那個。我們當時想,讓我們做 22,000 類別的那個。我們在現有技術上獲得了 70% 的相對提升。我們還證明,如果做無監督預訓練,實際上在精準性上獲得了相當顯著的增加。05. 從詞向量到 LSTM 的序列預測我們也開始思考語言,並研究如何獲得單詞的良好分佈式表示。與其將單詞表示為離散的符號,我們希望為每個單詞建立一個類似神經網路的表示,然後能夠學習這些表示,以便最終得到代表系統中每個單詞或短語的高維向量。如果你這樣做並且擁有大量訓練資料,也就是你需要用來訓練的原始文字,你會發現當訓練完成後,在高維空間中位置相近的單詞都是相當相關的,比如 Cat、Puma 和 Tiger 都在附近。但也很有趣的是,我們發現方向是有意義的。如果你對這些向量進行減法運算,你會發現改變單詞性別的方向是相同的,例如無論你是從 King 開始還是從 Man 開始。你最終能夠做到這一點,還有針對動詞過去時和動詞將來時的其他方向,那確實有點有趣。然後我的同事 Ilya Sutskever、Oriol Vinyals 和 Quoc Le 致力於使用 LSTM,即循環長短期記憶模型,來解決一個特別好的問題抽象,也就是你有一個序列,並使用它來預測另一個不同的序列。結果證明這在世界上有各種各樣的用途,包括翻譯。如果你看到足夠多的英語-法語句子對並使用這個基於序列到序列的學習目標,那麼你最終會得到一個相當高品質的翻譯系統。結果證明你也可以將此用於各種其他事情。06. 硬體倒逼軟體:為瞭解決一億人的語音識別需求而誕生 TPU隨著我們在將神經網路用於語音識別、視覺和語言等各種有趣領域獲得越來越多的成功,我們開始意識到的另一件事是——我做了一個粗略的估算。我們剛剛研發出一個真正高品質的語音識別模型,雖然還沒有推出,但我們可以看到它的錯誤率比 Google 當前運行在資料中心的生產級語音識別系統低得多。我說:“如果語音識別變得好很多,人們將會想要更多地使用它。所以如果 1 億人想要開始每天對著他們的手機說三分鐘話怎麼辦?”結果證明,如果我們想要在 CPU 上運行這個高品質模型,也就是我們當時在資料中心擁有的硬體,我們將需要將 Google 擁有的電腦數量增加一倍,僅僅為了推出這個改進的語音識別功能。我說:“我們真的應該考慮專用硬體,因為我們可以通過建構專用硬體來利用神經網路計算的各種優良屬性。”特別是它們非常容忍極低精度的計算。你不需要 32 位浮點數。我們當時研究的所有神經網路本質上都只是密集線性代數運算的不同組合,如矩陣乘法、向量點積等等。如果你能建構真正擅長低精度線性代數的專用硬體,那麼突然之間你可以擁有效率高得多的東西。我們開始與一組晶片設計者和電路板設計者合作。在 2015 年,我們最終擁有了 TPU v1,即張量處理單元,它真的是設計來加速推理的,並部署到了我們的資料中心。我們做了一系列實證比較,結果表明它比當時的 CPU 和 GPU 快 15 到 30 倍,能效高 30 到 80 倍。與同一組人合作,我們意識到我們也想研究訓練問題,因為推理是一個不錯的小規模問題,但對於訓練,它是一個規模大得多的問題。所以我們開始圍繞擁有低精度、高速定製網路和一個可以將高級計算對應到實際硬體上的編譯器的想法,來設計機器學習超級電腦。最終我們推出了一系列 TPU 設計,這些設計逐漸變得越來越快,規模越來越大。我們最近的一個叫做 IronWood。這個系統的 Pod 叢集大小是 9,216 個晶片,都連接在一個 3D 環面網路中,擁有相當大的頻寬和容量。07. Transformer 革命:少10倍計算量換取更高精準性另一件已經發生的事情是開源工具真正賦能了整個社區。我們開發並開源了 TensorFlow,隨後 PyTorch 和 JAX 也相繼出現,這些框架在很多方面真正賦能了整個社區。在 2017 年,我的幾位同事致力於這個基於注意力的機制,建立在一些早期關於注意力的工作之上,但提出了這個非常棒的架構,它現在是你今天看到的那些令人興奮的語言模型的核心。他們的觀察實際上是:不像 LSTM 那樣,在 LSTM 中你有一個詞,你通過更新內部狀態來消耗那個詞,然後繼續處理下一個詞;他們的觀察是,不要試圖把所有那些狀態強制壓縮排一個每一步都更新的向量中。相反,讓我們保存經過的所有狀態,然後讓我們能夠在任何試圖根據過去的上下文做某事的時候,關注所有的狀態。這真的是《Attention Is All You Need》這篇論文標題的核心。他們能夠展示的是,你可以用少 10 到 100 倍的計算獲得高得多的精準性,並且在這種情況下,用小 10 倍的模型(這是對數尺度上的參數數量)對於一個語言模型來說,可以將 Loss 降低到一個特定的水平。他們能夠展示的是,Transformer 基礎模型中少 10 倍的參數會讓你達到那個效果,而且在論文的其他資料中,他們展示了計算量減少了 10 到 100 倍。08. 自監督學習:利用海量文字的填空遊戲是現代語言模型的核心另一個超級重要的發展僅僅是使用自監督資料的大規模語言建模。世界上有海量的文字。基於這些文字的自監督學習可以給你幾乎無限數量的訓練樣本,其中正確的答案是已知的,因為你有一些從模型的視野中移除的詞,然後你試圖預測那個詞。這有幾種不同的形式。一種是自回歸的,你可以向左看並嘗試根據在那之前看到的所有詞來預測下一個詞是什麼。例如“Stanford [空白]”,“Stanford [空白] University”,“Stanford is a [空白] University”。你為這個詞做一個猜測。所以你投入到做這種事情的所有努力使得模型能夠利用所有這些上下文並做出越來越好的預測。還有另一個你可以使用的目標,你可以看左邊和右邊更多的上下文,只是試圖猜測缺失的詞。如果你玩過填詞遊戲,它有點像那樣。“The Stanford [空白] Club”,“ [空白] together [空白] and Computer [空白] enthusiasts”。其中一些你可能可以猜到,其中一些更難猜。但這真的是在文字上做自監督學習的關鍵,這是現代語言模型的核心。結果證明你也可以將這些基於 Transformer 的模型應用於電腦視覺。我的另一組同事研究了我們如何做到這一點。他們再次發現,對於不同大小的配置,使用大約少 4 到 20 倍的計算量,你可以達到最好的結果。再次強調,演算法改進在這裡產生了很大的不同,因為現在突然之間你可以訓練大得多的模型或使用更少的計算來獲得相同的精準性。這是Jeff Dean演講實錄的下半部分,涵蓋了稀疏模型、Pathways架構、後訓練技術(蒸餾與強化學習)、Gemini模型的具體突破以及對未來的展望。09. 僅啟動1%的參數,在同等精準度下實現8倍算力效率提升我和幾位同事共同倡導並組建了一個小團隊,致力於研究稀疏模型。我們認為,在普通的神經網路中,處理每一個輸入示例都需要啟動整個模型,這無疑是一種巨大的資源浪費。如果能建構一個規模極其龐大的模型,並讓其中的不同部分專精於不同類型的任務,效果會優越得多。這樣,當你呼叫模型中所需的特定“專業知識”時,只需啟動整體模型中極小的一部分,比如在進行任何給定的預測時,可能只呼叫了模型總參數量的 1% 到 5%。我們要再次強調,在同等精準度水平下,這帶來了算力效率的重大飛躍。相關資料曲線顯示,在保持相同精準度的前提下,訓練成本算力降低了約 8 倍。換個角度看,你也可以利用這些節省下來的算力預算,在成本不變的情況下訓練出一個性能更優的模型。隨後,我們繼續在稀疏模型領域進行了大量深入研究,因為我們堅信這一方向至關重要。事實上,大家今天所熟知的大多數前沿模型,例如 Gemini 模型,本質上都是稀疏模型。為了支援更多結構獨特且複雜的稀疏模型,我們開始建構計算抽象層。這允許我們將有趣的機器學習模型對應到硬體上,而研究人員無需過多操心計算的具體部分位於何處。Pathways 是我們建構的一個系統,其設計初衷就是具備極高的可擴展性,從而簡化這些超大規模訓練計算的運行。假設每一個計算單元都是一個 TPU Pod,在 Pod 內部的晶片之間存在超高速網路連線,但有時你需要運行一個跨越多個 Pod 的任務。此時,Pathways 的核心作用之一就是編排所有這些計算資源,包括本地資料中心網路、園區網路甚至跨越大都會區域的長距離鏈路。作為機器學習研究員,你不必思考應該使用那條網路鏈路。系統會在最佳時間選擇最佳路徑,並自動處理故障,比如應對某個晶片或 Pod 當機等突發情況。Pathways 提供的一個重要抽象層位於 JAX 之下,即 Pathways 執行階段系統。這使得我們可以讓單個 Python 處理程序看起來像是一個擁有 10,000 個裝置而非僅有 4 個裝置的 JAX 程式設計環境。你可以使用所有標準的 JAX 機制來表達想要在所有這些裝置上運行的計算任務。10. 知識蒸餾的威力:僅用3%的訓練資料即可逼近全量資料效果我的另一組同事則致力於研究如何通過更好的模型提示來引匯出更優質的答案。他們的觀察是,在進行自監督學習時,教師模型會給出缺失單詞的機率分佈。事實證明,當學生模型出錯時,利用這個分佈可以提供比單一答案豐富得多的資訊。因為缺失的詞很可能是小提琴、鋼琴或小號,但極不可能是飛機。這種豐富的訊號實際上能讓模型學得更快、更輕鬆。特別是在這篇論文中,我們展示了一個語音資料集的案例,試圖正確預測音訊幀中的聲音。基準情況是,如果使用 100% 的訓練集,在測試幀上可以達到 58.9% 的精準率。但如果只使用 3% 的訓練資料,精準率會大幅跌落至 44%。然而,如果利用蒸餾過程產生的軟目標,即便只用 3% 的訓練資料,也能達到 57% 的精準率。這就是為什麼蒸餾是一項如此關鍵的技術。因為你可以先訓練一個超大規模的模型,然後利用蒸餾技術,將其能力遷移到一個小得多的模型上,最終得到一個高品質的小模型,其性能非常接近大模型。11. 強化學習進階:在數學和程式碼等可驗證領域,模型能夠自我探索並超越人類資料進入 2020 年代後,業界開始在後訓練階段大量應用強化學習。一旦你基於自監督目標訓練好了一個模型,你會希望鼓勵模型表現出符合預期的行為模式。例如在回覆風格方面,你可以給予它強化學習反饋,或者提供有禮貌的示例並進行微調。此外,你還可以通過向模型展示如何處理更複雜的問題來增強其能力。這些訊號來源多種多樣。一種是基於人類反饋的強化學習(RLHF),利用人類對模型輸出的反饋讓模型逼近人類獎勵訊號所期望的行為。另一種是基於機器反饋的強化學習,利用另一個“獎勵模型”來提供反饋。但在數學或程式碼等可驗證領域中的強化學習可能最為重要。在這裡,你可以讓模型嘗試生成數學問題的解,假設是一個證明,由於這是一個可驗證的領域,你可以運行傳統的證明檢查器來驗證模型生成的證明。證明檢查器會判定證明正確,或者指出在第 73 步出錯。當模型推理正確時,給予正向獎勵。同樣的方法也適用於程式碼生成,程式碼能編譯通過給予獎勵,如果能編譯並通過單元測試則給予更高獎勵。當你有一系列問題讓模型嘗試解決並根據結果給予獎勵時,模型就能真正探索潛在的解決方案空間。隨著時間推移,它探索該空間的能力會越來越強。12. Gemini 的多模態突破綜上所述,我們在 Google 一直致力於研發 Gemini 模型,它將許多上述理念融合成了非常有趣的模型。我們開展 Gemini 項目的目標是訓練世界上最優秀的多模態模型,並將其應用於 Google 的全線產品,同時也開放給外部開發者。我們希望它從一開始就是多模態的,即能夠接受各種不同模態的輸入,也能產生多種模態的輸出。我們一直在增加更多的模態支援,包括生成視訊、音訊等內容的能力。我們堅信超長上下文長度的重要性,這樣模型就能查閱大量輸入片段,並對其進行推理、總結或回顧。Gemini 2.0 在某種程度上建立在這些理念之上,是一個能力相當強的模型。為了展示數學推理能力的發展程度,我們今年使用 Gemini 1.5 Pro 的一個變體參加了國際數學奧林匹克競賽,去年我們也參加了,但今年是一個純語言模型系統。我們在六道題目中正確解決了五道,這相當於金牌水平的得分。這是問題描述,這是我們模型的輸入,這是模型能夠生成的輸出。推理過程很長,評委們很欣賞我們解法的優雅,最終我們完成了論證,Q.E.D.。回想 2022 年時,我們還在試圖解決“約翰有四隻兔子,又得到了兩隻,他現在有幾隻?”這樣的問題,現在靜下心來欣賞這些模型在數學推理能力上走了多遠,確實令人感慨。13. 從程式碼生成到多模態食譜轉換,AI 正在模擬人類思維過程本周早些時候,我們發佈了 Gemini 1.5 Pro 模型。它在眾多基準測試中表現優異,特別是我們在 LM Arena 中排名第一,這是一種很好的非基準測試評估方法,顯示了模型在盲測中普遍比其他模型更受使用者青睞。真正的突破之一是我們在 Web 開發風格的程式碼生成上,相比早期模型有了巨大飛躍。例如,輸入“Gemini 滑板”或“Gemini 衝浪”,模型實際上是在編寫程式碼來生成這些動畫場景。你可以給這些模型非常高層的指令並讓它們編寫程式碼。雖然不總是成功,但當它奏效時,那種神奇的感覺非常棒。另一個很好的例子是多模態能力的綜合運用。使用者可以將一大堆各種語言(韓語、英語)的食譜照片輸入模型,要求翻譯並轉錄,然後建立一個雙語網站。模型不僅完成了轉錄,還為網站生成了漂亮的配圖和程式碼,最終生成了一個包含食譜的可用網站。這結合了模型的多種能力,最終生成了某種有用的東西。我們也推出了更好的圖像生成模型。例如,你可以輸入“將這張藍圖變成房子外觀的 3D 圖像”,或者拿原始的《Attention Is All You Need》論文配圖,要求在每一個不同的點註釋發生的重要方面。此外,Nano-Banana 項目展示了在中間圖像層面進行推理的能力。問題是“告訴我球會落在那個桶裡”,模型使用圖像一步一步解決它,某種程度上模擬了人類的思維過程:首先球滾到那裡,然後滾向另一邊到坡道三,最後落在 B 桶裡。14. AI 輔助的未來是光明的,但必須正視錯誤資訊等潛在風險總之,我希望你們看到,這些模型在各種不同的任務上正變得相當強大。進一步的研究和創新將延續這一趨勢。這將對眾多領域產生巨大的影響,特別是醫療保健、教育、科學研究、媒體創作以及錯誤資訊應對等。它有潛力讓真正的深度專業知識觸達更多人。想想那些編碼的例子,許多沒有受過程式設計訓練的人,可以獲得電腦的輔助,他們的願景可以幫助他們為食譜或其他任何東西生成有趣的網站。如果利用得當,我認為我們 AI 輔助的未來是光明的。但我並非完全無視風險。像錯誤資訊這樣的領域是潛在的關注點。實際上,John Hennessy、Dave Patterson 和我,以及其他幾位合著者去年寫了一篇論文,探討了所有這些不同領域,並採訪了這些領域的專家,詢問他們的意見,以及我們如何確保在獲得醫療、教育和科學研究等驚人益處的同時,又能最小化來自錯誤資訊或其他方面的潛在負面影響。 (數字開物)
天空精讀| Google大神Jeff Dean最新演講,Bolt.new CEO談成功, YC談AI氛圍程式設計,兩大投資科技大佬群播客更新
感謝科技的進步,每一個長篇訪談都可以有萬字全文,但或許更稀缺的是時間。希望本城日常精讀可以幫助大家在最有限時間裡掌握最新的科技商業認知。同時附上完整視訊和全文的連結,感興趣的同學可以繼續針對特定內容深入瞭解。天空科技商業精讀04.27 | 內容目錄• Google大神Jeff Dean關於AI重要趨勢的演講 - 蘇黎世聯邦理工學院 20250420• 訪談Bolt.new 首席執行官 Eric Simons 20250423• 如何最大限度地利用Vibe Coding - YC創業學校 20250425• BG2播客:關稅、自由貿易、出口管制、H20 與稀土禁令 - 比爾·格利 & 布萊德·格斯特納 20250424• Allin播客:馬斯克重返特斯拉,Google Gemini模型,中國的釷突破 20250426❖ ❖ ❖Google大神Jeff Dean關於AI重要趨勢的演講 - 蘇黎世聯邦理工學院 20250420視訊和全文連結:https://www.bilibili.com/video/BV1eZjcznExr/內容精讀:Google首席科學家Jeff Dean傑夫·迪恩,一位自1999年起便深度參與並塑造Google分佈式技術基石(如MapReduce, BigTable, Spanner, TensorFlow, Pathways)的關鍵人物,同時也是Google大腦團隊的聯合創始人,分享了他對人工智慧領域重要趨勢的見解。他強調,機器學習已根本性地改變了我們對電腦能力的預期,相較於十年前,如今電腦在視覺、語音識別和語言理解方面取得了巨大飛躍。          這一進步的核心驅動力在於不斷增加的訓練算力、資料規模以及模型大小,這幾乎已成為過去十五年顛撲不破的規律——更大的模型和更多的資料通常能帶來更好的性能。然而,迪恩特別指出,演算法和模型架構的改進,其重要性甚至超過了硬體的進步。這些綜合因素正推動計算範式從傳統的CPU為中心向更適應AI負載的新型計算硬體轉變。          回顧關鍵技術里程碑,神經網路和反向傳播演算法奠定了深度學習革命的基礎。2012年,迪恩及其同事通過訓練比當時已知最大模型大60倍的神經網路(使用DistBelief系統和16000個CPU核心),證明了更大模型結合足夠算力能帶來顯著性能提升,尤其在無監督學習和細粒度圖像分類任務上。DistBelief系統探索了模型平行與資料平行,並採用了創新的(儘管數學上非嚴謹的)非同步梯度更新方法,成功擴展了模型規模,催生了Word2Vec等詞嵌入技術。Word2Vec不僅讓相關詞語在向量空間中聚集,更揭示了向量方向的語義意義。          隨後,基於神經網路的序列到序列學習(2014年)推動了機器翻譯等任務的發展。對大規模神經網路推理需求的預見,促使Google開發了張量處理單元(TPU),這種專為低精度、高密度線性代數運算設計的硬體,在推理任務上實現了遠超當時CPU/GPU的性能和能效。TPU隨後發展為支援訓練和推理的大規模Pod系統,通過高速互連和光交換網路連線數千晶片,計算能力和能效在七年內分別提升了約3600倍和30倍。          開源框架如TensorFlow、PyTorch和JAX的普及,極大地促進了機器學習社區的發展和應用的廣泛性。2017年,“Attention is All You Need”論文提出的Transformer架構,通過注意力機制擺脫了循環模型的順序限制,以更少的計算量和模型大小實現了更優性能,成為現代大型語言模型(LLM)的基石。自監督學習利用海量無標籤文字(通過預測文字自身,如自回歸或掩碼語言模型)進行訓練,是LLM能力強大的關鍵。視覺Transformer(ViT)則將Transformer架構成功應用於圖像處理,統一了處理不同模態資料的模型基礎。          稀疏模型(如混合專家模型MoE)通過僅啟動模型的一小部分(如2%),在保持巨大模型容量的同時,顯著降低了訓練和推理的計算成本,實現了演算法上的又一次效率飛躍。為管理超大規模分佈式訓練,Google開發了Pathways軟體抽象,它將數萬個TPU晶片虛擬化為單一處理程序下的裝置集,簡化了跨資料中心、跨地域的複雜計算任務編排。          在模型應用層面,“思維鏈”提示鼓勵模型展示推理步驟,顯著提升了其在複雜問題(如數學題)上的精準性。知識蒸餾技術則能將大型“教師”模型的知識有效遷移到小型“學生”模型中,利用教師模型輸出的機率分佈作為更豐富的訓練訊號,使得小型模型在少量資料下也能達到接近大型模型的性能。針對高效推理,研究者們探索了不同的計算對應策略(如權重聚集),發現最優選擇依賴於批次大小和延遲等因素。推測解碼技術利用小型“草稿”模型快速生成候選序列,再由大型模型驗證,通過分攤記憶體頻寬成本來加速推理過程。          這些進展——包括更好的硬體加速器(TPU、GPU)、軟體抽象(Pathways、框架)、模型架構(Transformer、ViT、MoE)、訓練演算法(自監督、蒸餾、RLHF/SFT)和推理技術(CoT、推測解碼)——共同塑造了現代AI模型的能力。          迪恩以Google的Gemini項目為例,說明了這些技術的融合應用。Gemini是Google多部門合作的產物,旨在建構世界領先的多模態模型(處理文字、圖像、音訊、視訊),其開發利用了TPU、Pathways、JAX、Transformer、MoE、蒸餾等技術。Gemini 1.5引入了百萬級token的長上下文能力,使得模型能直接處理和推理大量資訊(如多篇論文或書籍),上下文中的資訊因其高保真度而尤為有效。最新的Gemini 2.5 Pro在編碼、多項基準測試和使用者偏好(如LM Arena ELO評分)上均取得顯著進步,體現了模型在質量與成本帕累托前沿的持續最佳化。          管理如此大規模的項目(涉及全球分佈的數百位研究人員)需要有效的組織結構(按領域劃分團隊)、溝通機制(大量使用聊天工具、正式評審流程)和資料驅動決策(排行榜、基線比較)。擴展計算規模也面臨挑戰,如靜默資料損壞(SDC),需通過監控梯度范數、確定性重放等方法來檢測和緩解硬體錯誤。Gemini展示了強大的能力,如修復程式碼、通過上下文學習掌握冷門語言(卡拉芒語)、處理多模態輸入(視訊轉JSON、視訊摘要)、數位化歷史資料以及高級程式碼生成。          最後,迪恩強調了AI的社會影響,並提及了他參與合著的《塑造AI》論文。該文旨在聯合學界、工業界力量,通過有針對性的研究和政策,主動引導AI發展,以服務公共利益,最大化其積極影響(如普及專業知識),同時警惕並減輕潛在風險(如虛假資訊傳播)。他認為,雖然當前AI在某些複雜任務上仍有不足,且使用者需要學習如何有效利用這些工具(提示工程),但模型能力正快速迭代提升。資料質量至關重要,雖然原始資料似乎尚未枯竭,但更高效地利用資料、讓模型從資料中學習更深層次的理解是重要的研究方向。AI的未來潛力巨大,需要社會各界共同努力,負責任地塑造其發展軌跡。          當前模型能夠將相對簡單的任務分解為少數幾個步驟,並借助有限的工具使用來完成,其精準率大約在60%到70%。然而,這些模型尚無法獨立地將非常複雜的事情分解成大量的子步驟(例如50個或更多),並使用多種複雜工具來完成可能耗時數月的重要任務。目前的技術水平與人們期望達到的、能夠以極高精準率(如95%)在一千個步驟中完成長期工作的理想狀態之間,存在著巨大的鴻溝,這種理想狀態目前肯定無法實現。能力的提升可能是一個連續的過程,而非一蹴而就的突破。未來會看到模型的性能逐漸增強,例如能夠以90%的精準率完成10步操作,這可以視為一個中間發展階段。訪談Bolt.new 首席執行官 Eric Simons 20250423視訊和全文連結:https://www.bilibili.com/video/BV1hELfzuEnd/內容精讀:這篇訪談的核心內容,圍繞著一家名為StackBlitz的公司及其產品Bolt的戲劇性崛起展開,堪稱一個“歷時7年才實現的一夜成名”的故事。公司創始團隊最初的願景,是讓建構全端Web應用像使用Canva或Figma一樣簡單,為此投入了七年時間研發核心技術WebContainer——一個能在瀏覽器標籤頁內運行、毫秒級啟動的作業系統。然而,儘管技術領先,公司在商業化上步履維艱,主要面向開發者的IDE產品並未獲得足夠市場牽引力,年經常性收入(ARR)僅在70萬美元左右徘徊,一度瀕臨解散。          轉折點出現在公司將前沿AI技術與自身核心技術結合,推出了Bolt——一個通過文字提示即可生成應用程式的工具。這一創新徹底改變了公司的命運。Bolt上線後,年經常性收入在短短兩個月內從70萬美元飆升至2070萬美元。令人意外的是,Bolt的主要使用者群體(約60%-70%)並非開發者,而是產品經理、設計師、創業者等非技術背景人士,他們借助Bolt將產品構想直接轉化為實際可運行的軟體,這揭示了AI正在賦能一個全新群體進行軟體創造。          Bolt的成功,很大程度上歸功於其底層WebContainer技術。這項技術使得應用能在使用者本地瀏覽器中快速(百毫秒級啟動)、低成本、高可靠性地運行,避免了傳統雲IDE依賴虛擬機器帶來的延遲、成本和安全問題。使用者只需輸入提示,即可在極短時間內獲得一個功能看似完備的應用原型(如Spotify克隆),體驗流暢且“神奇”,入門門檻極低,甚至可以輕鬆部署到線上。          公司強調,早期長達七年的技術積累和社群建設雖未直接帶來商業成功,卻為Bolt的爆發奠定了堅實基礎。WebContainer技術是Bolt的核心競爭力,而多年積累的社群和品牌聲譽,使得Bolt僅憑一條推文就能迅速引爆市場。艱難時期學到的精益營運經驗,使得僅有15-20人的小團隊能夠有效應對使用者和收入的爆炸式增長,保持了高度的敏捷性和效率,例如僅用3名支援人員服務超過6萬付費客戶。          展望未來,公司認為隨著AI能力的提升(如更可靠的程式碼生成),產品將進一步簡化,可能隱藏更多面向開發者的技術細節,以更好地服務非技術使用者,同時仍為專業開發者提供深度定製的能力,如同一個適用於專業人士和普通使用者的“電鑽”。公司正在推出Bolt Builders計畫,連接使用者與專家解決開發難題,並可能將服務延伸至行銷、分銷等公司建立的全流程環節。他們認為,在一個產品建立成本趨近於零的時代,競爭優勢將更多地體現在品牌、分銷管道和卓越的客戶服務上。最終,這種由AI驅動的軟體開發民主化趨勢,將為消費者帶來更多競爭和更好的產品。公司也計畫在近期開始投入付費使用者獲取,以擴大這一顛覆性技術的認知度和影響力。✧ ✧ ✧ ✧ ✧如何最大限度地利用Vibe Coding - YC創業學校 20250425視訊和全文連結:https://www.bilibili.com/video/BV1p1jAzTEKn/內容精讀:近一個月來,我嘗試在幾個副項目中使用“氛圍編碼”,發現效果顯著,只要願意嘗試並掌握最佳實踐,就能取得可衡量的進步。如同幾年前的提示工程,人們每周都在發現新方法,而最佳技術往往與專業軟體工程師所用的相似。有人認為這已是軟體工程而非“氛圍編碼”,但這不重要,關鍵在於如何利用這些工具獲得最佳結果。          一些利用AI工具的建議包括:當AI IDE陷入困境時,嘗試直接訪問LLM網站介面,貼上程式碼提問或許能解決問題。可以同時使用Cursor(速度快,適合前端和全端)和Windsurf(思考時間長)處理同一項目,利用等待一個工具思考的時間在另一個工具上工作,甚至讓它們基於相同上下文生成同一功能的不同迭代版本供選擇。將AI視為一種新的程式語言,用自然語言程式設計,因此需要提供非常詳細的背景和資訊。推薦從測試用例入手,手工編寫測試用例作為防護欄,讓LLM在此基礎上自由生成程式碼,看到測試通過即可。在將任務交給AI編碼工具前,先在純LLM中規劃好範圍和架構至關重要。要監控LLM是否陷入困境,不斷重新生成程式碼或需要反覆貼上錯誤資訊,此時應退一步分析根本原因,可能是上下文不足或模型能力限制。          對於初學者,推薦Repl.it或Lovable這類提供可視化介面的工具,它們便於直接在程式碼中嘗試新UI,許多產品經理和設計師已開始這樣做,速度快於在Figma中設計。但若需精確修改後端邏輯,這類工具可能力不從心。對於有編碼經驗者,可以直接使用Windsurf、Cursor或ClaudeCode等工具。首要步驟不是直接編碼,而是與LLM合作制定一份全面的計畫(存於Markdown檔案並持續參考),然後逐節實施,每完成一節進行檢查、測試並執行Git提交,再讓AI標記計畫完成的部分,逐步推進而非試圖一次完成。版本控制至關重要,務必虔誠地使用git。儘管某些工具有恢復功能,但尚不可靠。每次開始新功能前確保Git狀態乾淨,以便AI偏離軌道時能回滾到可用版本。若AI不工作,不要猶豫使用`git reset head --hard`重設後重新開始。多次提示AI修復同一問題往往導致程式碼質量下降,因為它傾向於堆疊糟糕的程式碼層。發現有效解決方案後,最好是`git reset`,然後基於乾淨的程式碼庫將該方案輸入給AI。          接下來應編寫測試,或讓LLM編寫測試,它們在這方面做得不錯,但通常默認編寫低級單元測試。推薦編寫高等級整合測試,模擬使用者端到端的操作流程,確保功能正常工作。在開發下一個功能前完成測試,因為LLM有更改無關邏輯的壞習慣,測試套件能及早發現這些回歸。          記住LLM不僅用於編碼,也可用於非編碼任務,如組態DNS伺服器、設定Heroku託管(充當DevOps工程師),或建立網站favicon並編寫指令碼調整尺寸格式(充當設計師)。遇到錯誤時,直接將錯誤資訊(來自伺服器日誌或瀏覽器控制台)貼上給LLM通常足以讓其識別並修復問題,無需過多解釋。未來,期待編碼工具能自動攝取錯誤,無需手動複製貼上。對於複雜錯誤,可讓LLM先思考多種可能原因,每次修復嘗試失敗後用`git reset`重設,避免累積無用程式碼。加入日誌記錄也很有幫助。如果遇到困難,嘗試切換不同模型(如Claude Sonnet 3.7、OpenAI模型、Gemini),它們各有擅長。找到棘手錯誤的根源後,建議重設所有更改,在乾淨程式碼庫上給出非常具體的修復指令。          為LLM編寫指令(存放於各工具特定的規則檔案中)能顯著提高效果,有些創始人為此編寫了數百行指令。關於指令內容網上有很多建議。對於文件訪問,線上訪問效果不一,建議下載特定API的文件到本地子目錄,讓LLM在本地訪問,並在指令中明確要求先閱讀文件。LLM也可作為老師,讓它逐行解釋程式碼實現,是學習新技術的好方法。          處理複雜新功能時,建議先在乾淨程式碼庫中將其作為獨立項目開發,獲得一個小型可工作的參考實現(或下載GitHub上的參考實現),然後讓LLM參照該實現在主程式碼庫中重新實現。保持檔案小巧和模組化對人類和AI都有利,未來可能向更模組化或基於服務的架構轉變,清晰的API邊界讓LLM更容易工作。          技術堆疊的選擇會影響AI表現。使用Ruby on Rails效果很好,可能是因為其擁有大量完善約定和一致的高品質線上訓練資料。相比之下,Rust或Elixir等較新語言的訓練資料較少,效果可能稍遜。          利用截圖貼上到編碼代理中,可用於展示UI錯誤或借鑑其他網站的設計靈感。語音輸入(如使用Aqua)是另一種高效互動方式,能以遠超打字的速度輸入指令,且AI對輕微語法錯誤容忍度高。          程式碼可運行且測試到位後,應經常重構。可以請LLM識別程式碼庫中重複或適合重構的部分。這符合專業軟體開發實踐,保持檔案小巧模組化有助於理解。          持續進行實驗至關重要,該領域技術每周都在變化。嘗試不同模型(如Gemini擅長規劃,Sonnet 3.7擅長實現,GPT-4.1目前表現尚不突出),找出它們在不同場景下的優劣勢,並根據需要選用。 (Web3天空之城)